บทนำการเขียนโปรแกรมด้วยทริตอน: การเปลี่ยนจากเธรดเป็นอินสแตนซ์โปรแกรม

ในทริตอน หน่วยพื้นฐานของการดำเนินการจะเปลี่ยนจากเธรดสเกลาร์ของ CUDA เป็น อินสแตนซ์โปรแกรม. ซึ่งเป็นการแทนที่แบบสร้างภาพของบล็อกเธรดใน GPU โดยที่อินสแตนซ์เดียวจะจัดการกับชุดข้อมูลเวกเตอร์ 'บล็อก' หลายค่าพร้อมกัน

1. ตัวตนของอินสแตนซ์โปรแกรม

หน่วยดำเนินการทุกหน่วยจะรับตัวตนผ่าน pid = tl.program_id(axis=0). พิจารณาอย่างเช่น รถยกในโกดัง (อินสแตนซ์โปรแกรม) ที่ยก พาเลท (บล็อก) ของกล่อง 128 ชิ้น ซึ่งต่างจากแรงงานคนเดียว (เธรดของ CUDA) ที่ยกกล่องเพียงชิ้นเดียว

2. ทริตอนเทียบกับเทนเซอร์ของพายโทช

การเข้าใจช่องว่างเชิงความหมายมีความสำคัญต่อการจัดการหน่วยความจำ:

เทนเซอร์ของพายโทช: วัตถุแบบพีทีอนที่ฝั่งโฮสต์ห่อหุ้มการจัดเก็บในหน่วยความจำ VRAM ลำดับขั้นและเมตาดาต้า
เทนเซอร์ของทริตอน: วัตถุระดับคอมไพล์ที่แสดงค่าหรือตัวชี้ที่อยู่ใน เรจิสเตอร์หรือ SRAM.

มุมมองของพายโทช
วัตถุพีทีออนที่ชี้ไปยังหน่วยความจำแบบต่อเนื่องระดับโลก

มุมมองของทริตอน
บล็อกข้อมูล 2D/1D ภายในเรจิสเตอร์ของคอมไพล์เลอร์

3. ลักษณะของแบบจำลอง SPMD

ทริตอนใช้แนวทาง โปรแกรมเดียว ข้อมูลหลายชุด (SPMD) การไหล ทุกอินสแตนซ์โปรแกรมจะดำเนินการตาม รหัสเดียวกันอย่างแม่นยำ โค้ด ความแตกต่างจะเกิดขึ้นก็ต่อเมื่อตรรกะใช้ pid ในการคำนวณตำแหน่งหน่วยความจำเฉพาะ

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary identifier for a Triton execution unit?

threadIdx.x

tl.program_id(axis=0)

tl.block_idx()

torch.get_id()

QUESTION 2

True or False: A Triton tensor is a Python object that stores metadata like strides on the host CPU.

True

False

QUESTION 3

What is the result of 'forgetting that all program instances execute the same kernel body'?

The compiler will automatically distribute tasks.

Race conditions or overwriting memory if pid-based logic is missing.

The kernel will fail to compile due to a syntax error.

Execution time will double.

QUESTION 4

In the forklift analogy, what does the 'Aisle Number' represent?

The BLOCK_SIZE

The program_id (pid)

The GPU Driver version

The Pointer address

QUESTION 5

Why is the Triton model considered 'Vectorized' compared to CUDA?

It uses Python lists.

One Program Instance handles a block of elements, not just one scalar element.

It only works with 2D matrices.

It runs on the CPU's SIMD units.